[计量] 多重共线性

这是一篇关于多重共线性的介绍

Posted by Leung ZhengHua on 2017-10-15

本文总点击量

定义

完全共线性:k个变量如果满足以下条件,我们说它存在一个准确的线性关系:λ1X1+λ2X2++λkXk=0,其中λ1,λ2,,λk 为常数,但不同时为0。

多重共线性X变量之间彼此相关,但又不完全相关,λ1X1+λ2X2++λkXk+vi=0,其中vi是随机误差项。

多重共线性的侦察

  • 散点图。可以直观查看变量两两之间的线性相关关系
  • R2,只有少数变量的t值是显著的,F值却显示方程整体显著
  • 回归元之间存在高度的两两相关,但低的相关系数也可能存在多重共线性
  • 辅助回归。对每一个Xi对其余X变量做回归,判决系数记为R2,变量Fi=Ri2/(k1)(1Ri2)/(n(k1))F(k2,nk+1),F值超过指定显著性水平下的临界值表明这个Xi和其余变量之间存在共线性,但存在共线性不代表要在回归模型中删去这个变量。
  • 本征值和病态指数。k=最大特征根最小特征根CI=最大本征值最小本征值=k,当k>1000时就算有严重的多重共线性。
  • 容许度与方差膨胀因子。方差膨胀因子VIFi=11Rj2,容许度TOLj=1Rj2Rj2是变量Xj对其余变量做辅助回归的判定系数,当Rj2>0.90,一个变量的VIF超过10可以认为存在高度共线性。

估计问题

完全多重共线性

无法得到个别回归系数的唯一解,且其方差和标准误无穷大

高度多重共线性

  • 多重共线性并没有违反经典模型的假定,OLS估计量仍然是BLUE,但其方差和协方差偏大
  • 置信区间比较宽,以致于接受虚拟假设更容易
  • 一个或多个回归系数的t比率倾向于在统计上不显著
  • t比率不显著,但总的拟合优度R2仍可能非常高
  • 新数据进入会对估计量和标准误产生巨大的影响

解决办法

剔除变量与设定偏误

从模型中剔除一个变量,可能导致设定偏误,多重共线性虽有碍于模型参数的准确估计,但剔除变量则对参数的真值有严重的误导而不是适当的修正(剔除变量等价于参数为0)。

变量替换(差分、比率变换)

如果干扰项原本序列无关,序列的数据差分之后在多数情况下将会序列相关。因此,治疗比疾病更糟糕。

补充新数据

多重共线性通常是一个样本特性,有可能在关于同样变量的另一个样本中没有那么严重。随着样本量的增加,估计系数的方差将减小,从而降低标准误。

多项式回归

在实际中,若果将解释变量表达为离差形式(即对均值的离差),多重共线性就可以大为降低。

因子分析、岭回归

同过变量选择和降维的技术可以解决多重共线性的问题。